Robin Chauhan:在我看来,他们通常使用基于on-policy的PPO(Proximal Policy Optimization)方法来处理数据集。这种方法无法重复使用数据,因为它们依赖于当前模型样本数据或非常接近模型的数据。如果对这些数据进行训练后,模型出现偏差,那么该数据集是否仍然有效?或者说该数据集是否可以用于训练其他模型?Natasha Jaques:这些数据集并非是一次性的。奖励模型的训练过程实际类似于对文本摘要进行比较。这种比较的结果不仅仅取决于策略模型本身,更是一种较为客观普遍的结果,所以具有off-policy特性,可以重复的使用这些数据。
Robin Chauhan:我听说你打算回到学术界,担任华盛顿大学的助理教授。你打算研究什么?Natasha Jaques:我已经有一个清晰的想法。在企业招聘时,如果你不能清晰地描述你的计划,他们就不会雇用你。我想做的是社交强化学习,即:当在多智能体环境中进行学习时,我们可以在哪些方面提升AI的性能。目前大多数AI活动都需要人类参与,而人类非常聪明,有多种方式来完成任务。因此,我们不仅要思考如何使AI灵活地向人类学习,还要思考人类在社交学习方面的技能,即如何确认哪些模型值得学习,以及何时应该依赖向他人学习而不是独立探索。我想开发的是能够与人类交互并且有用的AI。这就要解决以下问题,例如:如何与一个从未见过的人合作解决任务?如何理解人类想要解决的目标?如何从人类反馈(包括隐式反馈)中进行学习?如何使用自然语言与人类交流以解决任务?如何使用人类反馈训练语言?这些都是我一直在研究的语言条件下的强化学习。Robin Chauhan:在业内领先实验室工作后再回到学术界是一个很有趣的选择,我敢打赌,很多人会做出相反的选择,特别是考虑到在学术预算有限的情况下,做顶尖AI研究是一个很大的挑战,因为规模化对于AI来说十分重要,但规模化扩展又十分昂贵。Natasha Jaques:有人可能会认为,如果想要为AI做出贡献,就需要巨大的计算预算和训练大型模型,而学术界怎么可能承担得起这个成本?但实际上,业界常有30-50人组成的团队在致力于研究那些已经被证实可行的想法,所以研究人员可以加入其中,将其扩展成大规模项目。比如谷歌的一些大型团队就正在尝试开展RLHF项目。他们的做法与OpenAI都大同小异,都在尝试扩展编写自己的基础设施。OpenAI和DeepMind现在越来越注重规模化扩展,而非仅仅发布研究成果。如果你想要从事创新性的、探索新想法的研究方向,并通过实验确认这些想法,那么在业界可能会有更多的挑战。我比较关注的是研究自由度和能够独立思考并实验的能力。学术界的作用在于提出新的研究思路,并进行概念验证,而工业界则负责将这些思路转化为实用的系统。以我从事KL控制为例,学术界的探索性工作就对工业界的技术发展起到了积极的推动作用。所以起决定作用的是看个人喜欢做什么,加入基础设施工作团队还是做更多研究。就我个人而言,我更喜欢从事更具有研究性质的工作。Robin Chauhan:你对AI的贡献已经得到学术界的认可,但公众却鲜为人知。人们只看到OpenAI取得的成就,却不知道它也是站在前人的肩膀上才获得的。 Natasha Jaques:现状确实如此。不过我的目标是实践自己的想法并验证是否可行,进而为AI的发展作出贡献,而不只是追求荣誉。 相关论文1. Way Off-Policy Batch Deep Reinforcement Learning of Implicit Human Preferences in Dialog(https://arxiv.org/abs/1907.00456) 2. Sequence Tutor: Conservative Fine-Tuning of Sequence Generation Models with KL-control(https://arxiv.org/abs/1611.02796)3. PsiPhi-Learning: Reinforcement Learning with Demonstrations using Successor Features and Inverse Temporal Difference Learning(https://arxiv.org/abs/2102.12)4. Basis for Intentions: Efficient Inverse Reinforcement Learning using Past Experience(https://arxiv.org/abs/2208.04919) 5. Fine-Tuning Language Models from Human Preferences(https://arxiv.org/abs/1909.08593), Daniel M. Ziegler et al 2019 6. Learning to summarize from human feedback(https://arxiv.org/abs/2009.01325), Nisan Stiennon et al 2020 7. Training language models to follow instructions with human feedback(https://arxiv.org/abs/2203.02155), Long Ouyang et al 2022 其他人都在看